همچنین دارای مورفولوژی داخلی است. یکی دیگر هوش مصنوعی به زبان ساده برای کودکان از رویکردهای بالقوه برای رسیدگی
تقسیم بندی جمله برای اعمال یک راه حل اکتشافی است، همانطور که بسته جملات تقسیم کننده انجام می دهد (تقسیم به جمله، n.d.).
بررسیهای اولیه نشان دادهاند که اگرچه راهحلهای مبتنی بر یادگیری ماشینی بهعنوان پیشرفتهترین راهحلهای طبیعی در نظر گرفته میشوند.
پردازش زبان (NLP) وظایف، آنها بهتر از انجام نمی
رویکرد اکتشافی در این مجموعه خاص ذکر شده است. هوش مصنوعی به زبان ساده برای کودکان در عمل تبدیل شد
واضح است که magyarlanc و HuSpaCy هر دو برخی از اشتباهات معمولی را مرتکب شدند
تقسیم متون اصلی به جملات یکی از منابع مکرر خطا
تقسیمبندی بیش از حد مراجع قانونی، فهرستها و دیگر موارد خاص بود
روشهای ساختاربندی متن که به طور کلی حوزه حقوقی را مشخص می کند.
مزیت بزرگ جمله-شکاف این است که فهرستی قابل تنظیم دارد
استثناهایی که می توانند برای مشخص کردن اختصاراتی که هوش مصنوعی به زبان ساده برای کودکان در آنها شما وجود دارد استفاده شود
می خواهید ابزار جملات را قطعه بندی نکند. در مورد حاضر، فهرست از
اختصارات معمولاً در قوانین مجارستان استفاده می شود. این است
به صورت آنلاین در وب سایت دادگاه عالی مجارستان در دسترس است
(Kúria, n.d.).
پس از تقسیم بندی، مجموعه اصلی شامل 40057 هوش مصنوعی به زبان ساده برای کودکان جمله بود. آ
مرحله بعدی تعیین تفاوت بین این دو نسخه بود:
متن های اصلی و بازنویسی شده قرارداد نامگذاری MS اصلی
اسناد Word منبع مفیدی در اینجا بود، زیراهوش مصنوعی به زبان ساده برای کودکان رمزگذاری شده بود
- اگر دو سند نسخه ای از یک متن باشند، و
- کدام نسخه اصلی و کدام نسخه بررسی شده است.
به عنوان مثال، در مورد سند سه گانه. A1A.docx، A1B.docx و A1C.
docx، پیشوند (A1) کدگذاری میکند که نسخههای یک سند هستند،
و پسوندهای A، B و C وضعیت محتوا را رمزگذاری کردند. در اینجا، A
نشان داد که این یک متن اصلی است، B نشان داد که یک نسخه بازنویسی شده است
از همان متن، در حالی که C نشان داد که یک نسخه بررسی شده است، که در آن
تصحیح را می توان دنبال کرد.
71
قابلیت درک و اتوماسیون:
زبان ساده در عصر دیجیتالی شدن
مجله مطالعات اروپایی TalTech
دانشگاه فناوری تالین (ISSN 2674-4619)، جلد. 12، شماره 2 (36)
یک اسکریپت پایتون به طور خودکار جفت سند (با A و B را پیدا کرد
پسوندها) و سپس جملاتی را که فقط در آنه هوش مصنوعی به زبان ساده برای کودکان ا وجود دارد تعیین کرد
یک سند اصلی (فرعی اصل) و آنهایی که فقط هستند
موجود در نسخه بازنویسی شده (زیر پیکره بازنویسی شده). این نشان داده شده است
به عنوان روش 1 در شکل 1.
شکل 1. امکانات انتخاب زیر مجموعه
راه حل بالقوه دیگر می توانست انتخاب همه جملات باشد
در هر دو سند وجود دارد (اصل به علاوه بازنویسی شده)، هوش مصنوعی به زبان ساده برای کودکان سپس اینها را به آن اضافه کنید
مواردی که فقط در اصل اسناد موجود است. این مجموعه خواهد داشت
در حالی که مجموعه جملات «بازنویسی شده» زیر مجموعه «قابل درک» بود
فقط آنهایی بودند که بدون تغییر باقی می ماندند (روش 2 در شکل 1).
در اینجا، روش 1 انتخاب شد زیرا مجموعه بسیار باریک تری را از بین انتخاب می کند
متون به زیر مجموعه اصلی. این یک آموزش برنامه نویسی کودکان و نوجوانان هوش مصنوعی به زبان ساده برای کودکان عامل مهم است، زیرا همانطور که بود
در مقدمه آمده است، در مورد ما، جملاتی که به عنوان "اصلی" برچسب زده شده اند.
در واقع مواردی هستند که می خواهیم آنها را مشکل ساز بدانیم. روش 2 خواهد بود
بنابراین بهتر است یک پیکره بسازیم تا به ما کمک کند فقط جدا شویم
جملات اصلی و بازنویسی شده، اما موضوع این مقاله بیش از
این نوع جدایی ناب
72
István Üveges
مجله مطالعات اروپایی TalTech
دانشگاه فناوری تالین (ISSN 2674-4619)، جلد. 12، شماره 2 (36)
4.2 انتخاب و پیش پردازش داده ها
آخرین مرحله حذف (یا حداقل کاهش) نویز از داده ها بود. که در
در این مورد خاص، این به معنای حذف جملات نادرست بخش بندی شده بود،
و جملاتی که واقعاً جملات واقعی هستند، اما چیز زیادی ندارند
اطلاعات (به عنوان مثال، برچسبهای فهرست، عناوین، پاورقیها وهوش مصنوعی به زبان ساده برای کودکان غیره که به اشتباه تقسیمبندی شدهاند). بعد از
بررسی دستی داده ها، موثرترین و ساده ترین راه حل
به نظر می رسید که جملاتی را که کمتر از 10 توکن هستند حذف کنید.
شکل 2. توزیع طول جمله بر حسب نشانه در
زیر مجموعه های اصلی و بازنویسی شده
شکل 2 توزیع طول جملات را در دو زیر مجموعه نشان می دهد
(اصل و بازنویسی شده). لازم به ذکر است که طولانی ترین بخش بندی شده است
جمله 304 توکن بود، اما از آنجایی که چنین افراطی ها بسیار نادر بودند
شکل فقط شامل دادههایی از محدوده [1، 100] فاصله هوش مصنوعی به زبان ساده برای کودکان طول نشانه است.
خط چین عمودی مرز 10 توکن را در طول جمله نشان می دهد.
برخی از خصوصیات اساسی پیکره باقیمانده را می توان هوش مصنوعی به زبان ساده برای کودکان هوش مصنوعی به زبان ساده برای کودکاندر جدول 1 مشاهده کرد.
ردیف آخر نشان دهنده درصد زیر مجموعه مربوط به کامل است
مجموعه داده از 40057 جمله اصلی، مجموعه انتخاب شده شامل
10883 جمله 1
، که تقریباً کاملاً بین اصلی و
1 در مقایسه با داده های اصلی، 14123 جمله در طول بررسی کارشناسی توسط
سازمان امور مالیاتی و گمرکات کشو Artificial intelligence in plain language for children ر یعنی 35.26 درصد از متن اصلی
همچنین دارای مورفولوژی داخلی است. یکی دیگر هوش مصنوعی به زبان ساده برای کودکان از رویکردهای بالقوه برای رسیدگی
تقسیم بندی جمله برای اعمال یک راه حل اکتشافی است، همانطور که بسته جملات تقسیم کننده انجام می دهد (تقسیم به جمله، n.d.).
بررسیهای اولیه نشان دادهاند که اگرچه راهحلهای مبتنی بر یادگیری ماشینی بهعنوان پیشرفتهترین راهحلهای طبیعی در نظر گرفته میشوند.
پردازش زبان (NLP) وظایف، آنها بهتر از انجام نمی
رویکرد اکتشافی در این مجموعه خاص ذکر شده است. هوش مصنوعی به زبان ساده برای کودکان در عمل تبدیل شد
واضح است که magyarlanc و HuSpaCy هر دو برخی از اشتباهات معمولی را مرتکب شدند
تقسیم متون اصلی به جملات یکی از منابع مکرر خطا
تقسیمبندی بیش از حد مراجع قانونی، فهرستها و دیگر موارد خاص بود
روشهای ساختاربندی متن که به طور کلی حوزه حقوقی را مشخص می کند.
مزیت بزرگ جمله-شکاف این است که فهرستی قابل تنظیم دارد
استثناهایی که می توانند برای مشخص کردن اختصاراتی که هوش مصنوعی به زبان ساده برای کودکان در آنها شما وجود دارد استفاده شود
می خواهید ابزار جملات را قطعه بندی نکند. در مورد حاضر، فهرست از
اختصارات معمولاً در قوانین مجارستان استفاده می شود. این است
به صورت آنلاین در وب سایت دادگاه عالی مجارستان در دسترس است
(Kúria, n.d.).
پس از تقسیم بندی، مجموعه اصلی شامل 40057 هوش مصنوعی به زبان ساده برای کودکان جمله بود. آ
مرحله بعدی تعیین تفاوت بین این دو نسخه بود:
متن های اصلی و بازنویسی شده قرارداد نامگذاری MS اصلی
اسناد Word منبع مفیدی در اینجا بود، زیراهوش مصنوعی به زبان ساده برای کودکان رمزگذاری شده بود
- اگر دو سند نسخه ای از یک متن باشند، و
- کدام نسخه اصلی و کدام نسخه بررسی شده است.
به عنوان مثال، در مورد سند سه گانه. A1A.docx، A1B.docx و A1C.
docx، پیشوند (A1) کدگذاری میکند که نسخههای یک سند هستند،
و پسوندهای A، B و C وضعیت محتوا را رمزگذاری کردند. در اینجا، A
نشان داد که این یک متن اصلی است، B نشان داد که یک نسخه بازنویسی شده است
از همان متن، در حالی که C نشان داد که یک نسخه بررسی شده است، که در آن
تصحیح را می توان دنبال کرد.
71
قابلیت درک و اتوماسیون:
زبان ساده در عصر دیجیتالی شدن
مجله مطالعات اروپایی TalTech
دانشگاه فناوری تالین (ISSN 2674-4619)، جلد. 12، شماره 2 (36)
یک اسکریپت پایتون به طور خودکار جفت سند (با A و B را پیدا کرد
پسوندها) و سپس جملاتی را که فقط در آنه هوش مصنوعی به زبان ساده برای کودکان ا وجود دارد تعیین کرد
یک سند اصلی (فرعی اصل) و آنهایی که فقط هستند
موجود در نسخه بازنویسی شده (زیر پیکره بازنویسی شده). این نشان داده شده است
به عنوان روش 1 در شکل 1.
شکل 1. امکانات انتخاب زیر مجموعه
راه حل بالقوه دیگر می توانست انتخاب همه جملات باشد
در هر دو سند وجود دارد (اصل به علاوه بازنویسی شده)، هوش مصنوعی به زبان ساده برای کودکان سپس اینها را به آن اضافه کنید
مواردی که فقط در اصل اسناد موجود است. این مجموعه خواهد داشت
در حالی که مجموعه جملات «بازنویسی شده» زیر مجموعه «قابل درک» بود
فقط آنهایی بودند که بدون تغییر باقی می ماندند (روش 2 در شکل 1).
در اینجا، روش 1 انتخاب شد زیرا مجموعه بسیار باریک تری را از بین انتخاب می کند
متون به زیر مجموعه اصلی. این یک آموزش برنامه نویسی کودکان و نوجوانان هوش مصنوعی به زبان ساده برای کودکان عامل مهم است، زیرا همانطور که بود
در مقدمه آمده است، در مورد ما، جملاتی که به عنوان "اصلی" برچسب زده شده اند.
در واقع مواردی هستند که می خواهیم آنها را مشکل ساز بدانیم. روش 2 خواهد بود
بنابراین بهتر است یک پیکره بسازیم تا به ما کمک کند فقط جدا شویم
جملات اصلی و بازنویسی شده، اما موضوع این مقاله بیش از
این نوع جدایی ناب
72
István Üveges
مجله مطالعات اروپایی TalTech
دانشگاه فناوری تالین (ISSN 2674-4619)، جلد. 12، شماره 2 (36)
4.2 انتخاب و پیش پردازش داده ها
آخرین مرحله حذف (یا حداقل کاهش) نویز از داده ها بود. که در
در این مورد خاص، این به معنای حذف جملات نادرست بخش بندی شده بود،
و جملاتی که واقعاً جملات واقعی هستند، اما چیز زیادی ندارند
اطلاعات (به عنوان مثال، برچسبهای فهرست، عناوین، پاورقیها وهوش مصنوعی به زبان ساده برای کودکان غیره که به اشتباه تقسیمبندی شدهاند). بعد از
بررسی دستی داده ها، موثرترین و ساده ترین راه حل
به نظر می رسید که جملاتی را که کمتر از 10 توکن هستند حذف کنید.
شکل 2. توزیع طول جمله بر حسب نشانه در
زیر مجموعه های اصلی و بازنویسی شده
شکل 2 توزیع طول جملات را در دو زیر مجموعه نشان می دهد
(اصل و بازنویسی شده). لازم به ذکر است که طولانی ترین بخش بندی شده است
جمله 304 توکن بود، اما از آنجایی که چنین افراطی ها بسیار نادر بودند
شکل فقط شامل دادههایی از محدوده [1، 100] فاصله هوش مصنوعی به زبان ساده برای کودکان طول نشانه است.
خط چین عمودی مرز 10 توکن را در طول جمله نشان می دهد.
برخی از خصوصیات اساسی پیکره باقیمانده را می توان هوش مصنوعی به زبان ساده برای کودکان هوش مصنوعی به زبان ساده برای کودکاندر جدول 1 مشاهده کرد.
ردیف آخر نشان دهنده درصد زیر مجموعه مربوط به کامل است
مجموعه داده از 40057 جمله اصلی، مجموعه انتخاب شده شامل
10883 جمله 1
، که تقریباً کاملاً بین اصلی و
1 در مقایسه با داده های اصلی، 14123 جمله در طول بررسی کارشناسی توسط
سازمان امور مالیاتی و گمرکات کشو Artificial intelligence in plain language for children ر یعنی 35.26 درصد از متن اصلی